近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
Explainability of a classification model is crucial when deployed in real-world decision support systems. Explanations make predictions actionable to the user and should inform about the capabilities and limitations of the system. Existing explanation methods, however, typically only provide explanations for individual predictions. Information about conditions under which the classifier is able to support the decision maker is not available, while for instance information about when the system is not able to differentiate classes can be very helpful. In the development phase it can support the search for new features or combining models, and in the operational phase it supports decision makers in deciding e.g. not to use the system. This paper presents a method to explain the qualities of a trained base classifier, called PERFormance EXplainer (PERFEX). Our method consists of a meta tree learning algorithm that is able to predict and explain under which conditions the base classifier has a high or low error or any other classification performance metric. We evaluate PERFEX using several classifiers and datasets, including a case study with urban mobility data. It turns out that PERFEX typically has high meta prediction performance even if the base classifier is hardly able to differentiate classes, while giving compact performance explanations.
translated by 谷歌翻译
Recent work in large language modeling (LLMs) has used fine-tuning to align outputs with the preferences of a prototypical user. This work assumes that human preferences are static and homogeneous across individuals, so that aligning to a a single "generic" user will confer more general alignment. Here, we embrace the heterogeneity of human preferences to consider a different challenge: how might a machine help people with diverse views find agreement? We fine-tune a 70 billion parameter LLM to generate statements that maximize the expected approval for a group of people with potentially diverse opinions. Human participants provide written opinions on thousands of questions touching on moral and political issues (e.g., "should we raise taxes on the rich?"), and rate the LLM's generated candidate consensus statements for agreement and quality. A reward model is then trained to predict individual preferences, enabling it to quantify and rank consensus statements in terms of their appeal to the overall group, defined according to different aggregation (social welfare) functions. The model produces consensus statements that are preferred by human users over those from prompted LLMs (>70%) and significantly outperforms a tight fine-tuned baseline that lacks the final ranking step. Further, our best model's consensus statements are preferred over the best human-generated opinions (>65%). We find that when we silently constructed consensus statements from only a subset of group members, those who were excluded were more likely to dissent, revealing the sensitivity of the consensus to individual contributions. These results highlight the potential to use LLMs to help groups of humans align their values with one another.
translated by 谷歌翻译
程序的源代码不仅定义了其语义,还包含可以识别其作者的细微线索。几项研究表明,这些线索可以使用机器学习自动提取,并允许在数百名程序员中确定程序的作者。这种归因对反审查和隐私增强技术的开发商构成了重大威胁,因为它们变得可识别并可能受到起诉。对这种威胁的理想保护是源代码的匿名化。但是,到目前为止,尚未探索这种匿名化的理论和实际原则。在本文中,我们解决了这个问题,并为有关代码匿名化的推理开发了一个框架。我们证明,生成$ k $匿名程序的任务 - 一个不能归因于$ k $ author的程序 - 不可计算,因此是研究的终点。作为一种补救措施,我们介绍了一个轻松的概念,称为$ k $ uncrunclantity,这使我们能够衡量开发人员的保护。基于这个概念,我们在经验上研究了匿名化的候选技术,例如代码归一化,编码样式模仿和代码混淆。我们发现,当攻击者意识到匿名化时,这些技术都没有提供足够的保护。虽然我们引入了一种从代码中删除剩余线索的方法,但我们工作的主要结果是负面的:源代码的匿名化是一个困难而开放的问题。
translated by 谷歌翻译
尽管机器人可以在大量隔离任务上熟练,但在现实的动态环境中的机器人部署是一个具有挑战性的问题。原因之一是机器人很少配备强大的内省能力,这意味着他们不能总是以合理的方式处理失败。此外,手动诊断通常是一项繁琐的任务,需要技术人员具有相当多的机器人技能。在本文中,我们讨论了我们正在进行的努力 - 在Ropod项目的背景下 - 解决其中一些问题。特别是,我们(i)提出了我们早期开发机器人黑匣子的早期努力,并考虑一些使其设计复杂的因素,(ii)解释我们的组件和系统监控概念,(iii)将远程监控和实验的必要性描述为以及我们最初的执行这些尝试。我们的初步工作打开了一系列有希望的方向,使机器人在实践中更可用和可靠 - 不仅在Ropod的背景下,而且在更一般的意义上也是如此。
translated by 谷歌翻译
能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
许多介入外科手术依赖于医学成像来可视化和跟踪仪器。这种成像方法不仅需要实时能力,而且还提供准确且强大的位置信息。在超声应用中,通常只有来自线性阵列的二维数据可用,并且由于以下三维中的精确位置估计是非微不足道的。在这项工作中,我们首先使用现实的合成训练数据训练神经网络,以估计对象与重建的超声图像中的相关轴向像差的平面外偏移。然后将获得的估计与卡尔曼滤波方法组合,该方法利用先前的时间框架中获得的定位估计来改善本地化鲁棒性并降低测量噪声的影响。使用模拟评估所提出的方法的准确性,并在使用新型光学超声成像设置获得的实验数据上证明了其实际适用性。实时提供准确和强大的位置信息。对于模拟数据的平均误差为0.1mm的平均误差,对于实验数据的平均误差为0.1mm的平均误差,轴向和横向坐标估计。三维定位最精确地高于1mm的高距距离,最大距离为25mm孔径为5mm。
translated by 谷歌翻译
在本文中,我们重新审视了钢筋学习(RL)途径的一些基本场所,以自学习红绿灯。我们提出了一种选择的选择,提供强大的性能和良好的通知来看不见的交通流量。特别是,我们的主要贡献是三倍:我们的轻量级和聚类感知状态表示导致性能提高;我们重新格式化马尔可夫决策过程(MDP),使得它跳过冗余的黄灯时间,加快学习30%;我们调查了行动空间,并提供了对非循环和循环转换之间的性能差异的洞察。此外,我们提供了对未经证明交通的方法的概念性的见解。使用现实世界杭州交通数据集的评估表明,绘图优于最先进的规则和深度增强学习算法,展示了基于RL的方法来改善城市交通流量的潜力。
translated by 谷歌翻译
我们专注于开发Quadrupedal机器人节能控制器的问题。动物可以以不同的速度积极切换Gaits以降低其能量消耗。在本文中,我们设计了一个分层学习框架,其中独特的运动遗传仪和自然步态过渡自动出现,其能量最小化的简单奖励。我们使用进化策略来培训一个高级步态政策,指定每只脚的步态图案,而低级凸MPC控制器优化电机命令,以便机器人可以使用该步态图案以所需的速度行走。我们在四足机器人上测试我们的学习框架,并展示了自动步态过渡,从步行到小跑和飞行,因为机器人增加了速度。我们表明学习的等级控制器在广泛的运动速度范围内消耗的能量要少于基线控制器。
translated by 谷歌翻译